1 Úvod

V této seminární práci budeme využívat prostorové modely pro modelování a predikovaní cen na trhu pražských nemovistostí. V návaznasti na \(\textit{Toblerovo první pravidlo geografie o podobnosti sousedicích jednotek}\) nejdříve ověřujeme prostorovou závislost v cenách přažských bytů. Následně aplikujeme neprostorové a prostorové modely k oveření stavených hypotéz.

Ukazuje se, že využití prostorových modelů dokáže zlepšít přesnost predikce cen nemovitostí. Dále také s využitím neprostorových modelů identifikováváme \(\textit{„honosné“}\) clusteri, tj. lokace ve kterých může být cena nemovistí více než dvojnásobné čistě z důvodů umístění.

1.1 Stanovení Hypotéz

Formálně oveřujeme následující stanovené hypotézi:

\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]

\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\]

\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\]

2 Dataset a zdroj.

Celý dataset v této studii byl získán z internetové stránky: https://www.sreality.cz/. Z důvodů přesnosti analýzy a možné \(\textit{statistické inference}\) je ale nezbytné stanovit si následující předpoklady a nemovitostech inzerovaných na zmíněné stránce:

\[1) \textit{ Stránka sreality.cz představuje reprezentativní soubor všech pražských bytů.}\] \[2) \textit{ Veškeré charakteristiky (cena, poč. pokojů, atd.) jsou v každém inzerátu přesné a ve stejných jednotkách. }\]

2.1 Základní charakteristiky

Celkový dataset byl získán z internetových stránek technikou \(\textit{web scraping}\) s využitím programovacího jazyku python. Po extrakci dat z internetové stránky v den 10. března 2020 bylo získáno zhruba \(\textbf{4012}\) nemovistostí, kde každé pozorování obsahovalo více než 80 \(\textit{proměných}\).

Takto získaný dataset byl následně vyfiltrován a tranformován. Byly odstraněné promměné, které nepovažujeme pro naši analyzů za vhodné. Sem patří např. proměnné typu: \(\textit{identifiční klíče a čísla v databázi, cluster databáze, primární klíče atd.}\).

Naopak proměnné, které jsou pro naší analýzu nezbytné jako: \(\textit{Cena, počet pokojů, metry, typ budovy, souřadnice, atd.}\) byly v datasetu ponechány. Celkový dataset tedy obsahuje následující proměnné:

\[\textit{Cena, Metry čtverečný, Počet pokojů, Mezon, kuchyňský kout, Panel, Balkón/Terasa, Novostavba}\]. A z důvodů prostorových data také \(\textit{Souřadnice}\).

Nakonec bylo nezbytné odstranit všechna pozorování, která obsahovala chybějící záznam v jakékoliv proměnné. Celkový finální dataset tedy obsahuje \(\textbf{2984}\) pozorování.

2.1.1 Charakteristiky proměnných

2.1.1.1 Základní statistiky proměnných

price Meters Rooms Mezone KK panel balcony_or_terrase novostavba
9840000 93 3 0 1 0 1 0
3980000 55 3 0 0 1 1 0
5958150 59 2 0 1 0 0 1
4657156 76 1 0 1 0 0 1
5466765 64 2 0 1 0 1 1
5466765 64 2 0 1 0 1 1

2.1.1.2 Distribuce proměnných

2.1.1.3 Korelace mezi proměnnými

price Meters Rooms Mezone KK panel balcony_or_terrase novostavba
price 1.0000000 0.7898035 0.5558636 0.1352582 -0.0029982 -0.2354115 0.1809857 0.0259425
Meters 0.7898035 1.0000000 0.7256933 0.1877708 -0.0808172 -0.1393384 0.2142180 0.0158588
Rooms 0.5558636 0.7256933 1.0000000 0.1295857 -0.4544417 0.1124233 0.0656613 -0.1401244
Mezone 0.1352582 0.1877708 0.1295857 1.0000000 0.0194664 -0.0467605 0.0550130 -0.0025503
KK -0.0029982 -0.0808172 -0.4544417 0.0194664 1.0000000 -0.2646404 0.1849925 0.2407025
panel -0.2354115 -0.1393384 0.1124233 -0.0467605 -0.2646404 1.0000000 -0.3017103 -0.2428932
balcony_or_terrase 0.1809857 0.2142180 0.0656613 0.0550130 0.1849925 -0.3017103 1.0000000 0.2384205
novostavba 0.0259425 0.0158588 -0.1401244 -0.0025503 0.2407025 -0.2428932 0.2384205 1.0000000

2.2 Distribuce pozorování v prostoru

V rychlosti nahlédněme na rozmístění pražských nemovitostí.

Abychom částěčně vzali vpotaz prostorovu závislost (Krom. prostorových modelů), lze využít proměnné \(\textit{longitude, latitude}\) a zařadit je do regresního modelu.

Jelikož jsou obě proměnné ale nevhodně spojité využijeme Clusterovací algoritmus \(\textit{K-means}\), který přiřadí každé pozorování do určité kategorie, to modelu bude následně vstupovat \(\textit{dummy}\) hodnota tohoto clusteru, pokud bude vycházet statisticky významný, lze považovat prostorovou závislost ze velmi silnou a volíme modely prostorové metodologie.

3 Metotologie a modely

Pro oveření našich stanovených hypotéz je nezbytné sestavit konkrétní model, který budeme odhadovat.

Formálně využijeme model, který má následující tvar:

\[\textit{log(cena)} = \beta_{0} + \beta_{1}pokoje + \beta_{2}log(metry) + \beta_{3}mezon + \beta_{4}kk + \beta_{5}panel + \beta_{6}terasa/balkon + \beta_{7}novostavba + \varepsilon.\]

Model budeme odhadovat několika metodymi: \(\textit{OLS, Kvantilová regrese}\) a prostorové modely: \(\textit{spatial lag, spatial error model}\).


Z výstupu výše vidíme, že proměnné, které zachycují umístění nemovistosti v konkrétním clusteru jsou statisticky významné (formálně musíme provádět testy hokoskedasticity, ale i v případě robustních odhadů vychazí signifikantní).

Pro oveření stability koeficientů pro určité kvantily můžeme nahlédnout na podobnost odhadů mezi metodu nejmenších čtverců a kvantilovou regresí:

Vidíme, že většina proměnných je pro různé hodnoty kvantilů stabilní. Z proměnných, které za stabilní považovat nelze vidíme proměnou \(\textit{Novostavba}\), která působí jako statisticky nevýznamná.

Jelikož jsme prokázali významný faktor umístění nemovistosti, dle statistické významnosti proměnných \(\textit{K-means}\) přejdeme nyní k prostorovým modelům.

3.0.1 Modely Prostorové ekonometrie (Relace sousednosti)

V prostorových modelech je nezbytné nadefinovat si \(\textit{Matici sousednosti W}\), která identifikuje, které jednotky považujeme za sousední a které již nikoliv:

Níže nahlédněme na několik způsobů generování vztahů sousednosti. Níže vidíme výsledky \(\textit{Moranova I}\) testů, které potvrzují přítomnost prostorové autokorelace pro všechny námi testované relace sousednosti.

3.0.1.1 Maximální počtu sousedů (4 jednotky):

I Statistic Variance p-value
0.4162484 0.0001326 0

3.0.1.2 Maximální počtu sousedů (7 jednotky):

I-Statistic Variance p-value
0.401907 7.73e-05 0

3.0.1.3 Maximální vzdálenosti (500 metrů):

I-Statistic Variance p-value
0.3272224 6.17e-05 0

3.0.1.4 Maximální vzdálenosti (900 metrů):

I-Statistic Variance p-value
0.285273 2.47e-05 0

3.0.2 Modely Prostorové ekonometrie Spatial Lag, Spatial Error

V této práci využijeme 2 základní modely prostorové ekonometrie, které definujeme následovně:

\(\textit{Spatial Lag model}\) má následující podobu:

\[y = \rho Wy + X \beta + \varepsilon\]

ve které provádíme kontrolu prostorové autokorelace skrze vysvětlující proměnné.

Druhý \(\textit{Spatial Error model}\) má předpis:

\[y = X\beta + u,\] \[u = \lambda Wu + \varepsilon\]

Tabulka odhadů parametrů všech modelů:

Dependent variable:
log(price)
OLS quantile OLS
regression
kmeans Kmeans Spatial lag Spatial Error
(1) (2) (3) (4) (5) (6)
Rooms 0.061*** 0.073*** 0.053*** 0.077*** 0.084*** 0.084***
(0.010) (0.009) (0.009) (0.008) (0.008) (0.007)
log(Meters) 0.808*** 0.765*** 0.818*** 0.732*** 0.657*** 0.680***
(0.021) (0.019) (0.019) (0.017) (0.018) (0.017)
Mezone -0.003 -0.038 0.0001 -0.046** -0.054** -0.068***
(0.031) (0.028) (0.022) (0.019) (0.025) (0.023)
KK 0.117*** 0.161*** 0.095*** 0.154*** 0.164*** 0.178***
(0.016) (0.014) (0.017) (0.013) (0.013) (0.012)
panel -0.324*** -0.201*** -0.305*** -0.223*** -0.164*** -0.124***
(0.016) (0.015) (0.012) (0.014) (0.014) (0.015)
balcony_or_terrase -0.007 0.038*** -0.00004 0.034*** 0.032*** 0.067***
(0.011) (0.010) (0.010) (0.009) (0.009) (0.009)
novostavba -0.011 0.007 0.018* -0.004 0.045*** 0.075***
(0.011) (0.011) (0.011) (0.009) (0.009) (0.010)
factor(KMEAN)2 0.138*** 0.134***
(0.020) (0.016)
factor(KMEAN)3 0.371*** 0.339***
(0.019) (0.015)
factor(KMEAN)4 0.154*** 0.152***
(0.019) (0.015)
factor(KMEAN)5 0.144*** 0.113***
(0.022) (0.016)
Constant 12.145*** 11.992*** 12.111*** 12.147*** 4.508*** 12.483***
(0.065) (0.061) (0.056) (0.051) (0.194) (0.056)
rho 0.514
0.013
lambda 0.83
0.015
Observations 2,984 2,984 2,984 2,984 2,984 2,984
Note: p<0.1; p<0.05; p<0.01



Dle parametrů prostorové autokorelace u obou modelů výše \(\lambda, \rho\) je patrné, že uvažované modely zachycují DGP lépe, než modely bez prostorové závislosti, náhlédněme na metriky všech odhadnutých modelů.

Využijeme následující metriky: \(\textit{AIC, log-likel}\) a \(R_{pse}\). Poslední z uvažovaných metrik je \(\textit{pseudo R}\), které je spočteno následujícím způsobem: \[R_{pse.} = corr(y, \hat y)^2,\] využití této metriky nám uvožní zachytit predikční shcopnosti každého modelu.
OLS OLS_Kmeans Quantile Quantile_Kmeans Spatial.Error Spatial.Lag
AIC 583.827 -22.682 29.727 -751.934 -872.498 -524.389
Log-like. -282.913 24.341 -6.863 387.967 446.249 272.195
R 0.748 0.795 0.748 0.794 0.857 0.830
n 2984.000 2984.000 2984.000 2984.000 2984.000 2984.000

Vydíme, že všechny hodnoty užitých metrik jsou nejlepší pro \(\textit{Spatial Error model}\), který tedy využijeme pro statistickou inferenci. Výhodou modelu \(\textit{Spatial Error}\) je skutečnost, že koeficienty lze také přímo interpretovat jako mezní efekty.

3.0.3 Rezidua a predikce všech modelů

3.0.3.1 Skutečné a predikované hodnoty

3.0.3.2 Histogram reziduí

3.0.3.3 Rezidua v prostoru (Honosné Clustery)

OLS model není zcela kvalitní na oceňování nemovitostí na pražském trhu, neboť nebere v potaz prostorové závislosti. Nicménně rezidua modelu mohou resp. jejich rozmístění může představovat zajímavý indetifikátor.

Nejdřívě spočítame procentuální chyby predikce pro každé pozorování a následně dle intervalů hodnoty diskretizujeme.

Při pohledu na graf níže vidíme, že nemovistosti vyskytující se v historickém centru Prahy (Staroměstské náměstí a přilehlé okolí)

Ceny nemovistostí jsou zde více jak dvojnásobné (více jak 100% rozdíl predikce) čistě z důvodů výskytů nemovistostí v historické části. Abychom tuto nevyrovnanost v reziduích odstranili, bylo by nutné každé nemovisotsti v tomto centru přidat novu kontrolní proměnnou \(\textit{Historické centru}\), která by nabývala hodnoty 1, pro nemovitosti v \(\textit{Honosném Clusteru}\). Užití modelů bez prostorové závislosti nám umožnuje takovéto clustery identifikovat.

Na Druhé straně pokud modelujume prostorovu závislost a dovolíme sousedním hodnotám \(\textit{„Vzájemné ovlivňování“}\) vydíme, že výrazný historický shluk v historickém centru Prahy vymizí.

4 Závěrem

V tétu studiu jsme modelovaly ceny Pražských bytů. Uvažujeme že cena nemovistosti není dána pouze dílčími charakteristikami jako např. \(\textit{velikost, počet pokojů}\), ale zárověň také funkce lokality. Z tohoto důvodu využíváme prostorové modely.

Nyní k zhodnocení stanovených hypotéz:

\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]

Jak na základě \(\textit{Prostorového clusterování (OLS_Kmean)}\) tak také užitím \(\textit{Moranova testu}\) a také na základě užitých metrik\(\textit{AIC, log-likel}\), \(R_{pse.}\) se naše hypotéza potvrzuje.

\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\] Pokud nahlédneme na rezidua v prostoru z OLS modelu vidíme a výše popisujeme výrazný \(\textit{prostorový shluk}\) viz. výše., tedy I tuto stanovenou hypotézu v závěru potvrzujeme

\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\] V vyhodnocení této hypotézy a statistické inference využijeme \(\textit{Spatial Error modelu}\), kter7 se jeví jako nejsilnější.

proměnná \(\textit{Novostavba}\) vychazí statisticky signifikantní (i na 1% hladinně) a nabývá hodnoty 0.074786, tedy předpokládáme, že pokud se jedná o novostavbu bude cenna vyšší zhruba o 7.5 %.